目前对大型语言模型 (LLM) 应用程序中针对即时攻击的防御的评估通常忽略了两个关键因素:对抗行为的动态性质以及限制性防御对合法用户施加的可用性惩罚。我们提出了 D-SEC(动态安全效用威胁模型),该模型明确将攻击者与合法用户分开,对多步骤交互进行建模,并以可优化的形式严格表达安全效用。我们通过引入 Gandalf 进一步解决了现有评估中的不足之处,Gandalf 是一个众包、游戏化的红队平台,旨在生成逼真的自适应攻击数据集。使用 Gandalf,我们收集并发布了 279k 次即时攻击的数据集。结合良性用户数据,我们的分析揭示了安全性和实用性之间的相互作用,表明 LLM 中集成的防御措施(例如系统提示)即使不阻止请求也会降低可用性。我们证明,受限应用程序域、纵深防御和自适应防御是构建安全且有用的 LLM 应用程序的有效策略。代码可在 https://github.com/lakeraai/dsec-gandalf 获得。
主要关键词
![arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日PDF文件第1页](/bimg/4/4d00e647d32f844a68f77aa1b2d1fc96c5e78598.webp)
![arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日PDF文件第2页](/bimg/2/20348da9c9e862b5673313ba0b5e8fcd1efc7ab6.webp)
![arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日PDF文件第3页](/bimg/d/d2ecbb6fe3db0fbd35e9ada54d3ee1e32659c8aa.webp)
![arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日PDF文件第4页](/bimg/d/d5850577be3706a00fef6c5103e85a08b8812941.webp)
![arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日PDF文件第5页](/bimg/0/0c0df95e105d9a07423bb592889cd29b3969210c.webp)

![arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日](/simg/d/d9644cb0e3282e91ab0a0efdbf71e923c6565160.png)